آسیبپذیری دائمی مرورگرهای هوش مصنوعی در برابر حملات تزریق دستورات

حتی در شرایطی که OpenAI تلاش میکند مرورگر هوشمند اطلس را در برابر حملات سایبری مقاومتر کند، این شرکت اذعان دارد که «تزریق فرمان» (Prompt Injection)، نوعی حمله که با فریب هوش مصنوعی به اجرا کردن دستورات مخرب ــ که اغلب در صفحات وب یا ایمیلها مخفی میشوند ــ انجام میشود، خطری همیشگی است که به این زودیها از بین نخواهد رفت؛ مسئلهای که سوالاتی درباره امنیت فعالیت هوش مصنوعی در فضای آزاد وب ایجاد کرده است.
OpenAI در یک پست وبلاگی که روز دوشنبه ۲ دی ۱۴۰۴ منتشر شد و درباره تقویت امنیت مرورگر اطلس در برابر این حملات توضیح داده بود، اعلام کرد: «تزریق فرمان، مشابه با کلاهبرداریها و مهندسی اجتماعی در سطح وب، به طور کامل قابل حل نخواهد بود.» این شرکت اعتراف کرد که «حالت عامل» (agent mode) در ChatGPT Atlas، سطح ریسک امنیتی را افزایش داده است.
OpenAI در مهر ۱۴۰۳، مرورگر ChatGPT Atlas را عرضه کرد. بلافاصله پس از آن، پژوهشگران امنیتی نسخههای نمایشی خود را منتشر کردند که نشان میداد میتوان فقط با نوشتن چند واژه در گوگل داکس، رفتار مرورگر را تغییر داد. همان روز، Brave نیز در پستی توضیح داد که «تزریق غیرمستقیم فرمان» چالشی ساختاری برای مرورگرهای مبتنی بر هوش مصنوعی، از جمله Comet ساخته شرکت Perplexity، به حساب میآید.
OpenAI تنها شرکتی نیست که به بقای حملات مبتنی بر فرمان اذعان دارد. مرکز ملی امنیت سایبری بریتانیا اوایل همین ماه هشدار داد که حملات تزریق فرمان علیه سامانههای هوش مصنوعی مولد «شاید هرگز بهطور کامل مهار نشود» و این موضوع میتواند موجب افشای اطلاعات وبسایتها شود. این نهاد انگلیسی به متخصصان امنیت سایبری توصیه کرد به جای تصور امکان توقف کامل این حملات، بر کاهش ریسک و اثرات تزریق فرمان تمرکز کنند.
از نگاه OpenAI، این شرکت اعلام کرده: «ما تزریق فرمان را به عنوان یک چالش بلندمدت در امنیت هوش مصنوعی میبینیم و باید بطور مداوم دفاع خود را در برابر آن تقویت کنیم.»
راهکار این شرکت برای این چالش مداوم چیست؟ یک چرخه واکنش سریع و فعال که — به ادعای شرکت — امیدبخش بوده و به آنها این امکان را میدهد که قبل از سواستفاده گسترده، راهبردهای نوین حمله را بهصورت داخلی شناسایی کنند.
این رویکرد چندان با گفتههای رقبایی مانند Anthropic و گوگل تفاوت ندارد؛ آنها نیز معتقدند برای مبارزه با حملات پایدار مبتنی بر فرمان، باید لایههای دفاعی ایجاد و این لایهها دائماً تحت آزمون فشار قرار بگیرند. برای نمونه، پژوهشهای اخیر گوگل بیشتر بر کنترلهای معماری و سیاستی برای سیستمهای عامل محور تمرکز دارد.
اما تفاوت OpenAI، استفاده از «حملهگر خودکار مبتنی بر مدل زبانی بزرگ (LLM)» است. این حملهگر در واقع رباتی است که OpenAI آن را با یادگیری تقویتی آموزش داده تا نقش یک هکر را بازی کند و راههای ارسال دستورات مخرب به عامل هوش مصنوعی را پیدا کند.
این ربات میتواند حمله را در محیط شبیهسازی شده امتحان کند و شبیهساز نشان میدهد که هدف (AI)، چگونه فکر میکند و اگر حمله را ببیند، چه واکنشی نشان میدهد. سپس ربات میتواند پاسخ را مطالعه، حمله را اصلاح و دوباره امتحان کند. چنین بینشی نسبت به فرایندهای درونی هوش مصنوعی وجود دارد که افراد خارج از شرکت، به آن دسترسی ندارند؛ بنابراین، در تئوری، ربات OpenAI میتواند سریعتر از یک حملهکننده واقعی، نقصها را بیابد.
این رویکرد، تاکتیکی متداول در تست ایمنی هوش مصنوعی است: ساخت یک عامل که موارد خاص و لبهای را پیدا کرده و به طور سریع در شبیهساز آن را آزمون کند.
OpenAI نوشته است: «حمله انجامشده توسط ربات آموزشدیدهی ما با یادگیری تقویتی میتواند عامل را به سمت اجرای جریانهای آسیبرسان پیشرفته و طولانی هدایت کند که در چندین (و حتی صدها) مرحله رخ میدهد. همچنین راهبردهای حمله جدیدی را مشاهده کردیم که در آزمایش انسانی یا گزارشهای خارجی ظاهر نشده بودند.»

در یک نسخه نمایشی (که بخشی از آن در تصویر بالا دیده میشود)، OpenAI نشان داد حملهگر خودکارش چگونه یک ایمیل مخرب را به صندوق ایمیل کاربر وارد کرد. پس از آن، زمانی که عامل هوش مصنوعی صندوق ایمیل را اسکن کرد، به جای تهیه پاسخ مرخصی، طبق دستور پنهانی، پیام استعفا ارسال کرد. اما با بهروزرسانی امنیتی، طبق اعلام شرکت، «حالت عامل» توانست تلاش برای تزریق فرمان را شناسایی و به کاربر هشدار دهد.
این شرکت اعلام میکند هرچند مهار کامل حملات تزریق فرمان دشوار است، اما با اجرای آزمایشهای وسیع و بهروزرسانی سریعتر، قصد دارد سیستمهای خود را پیش از وقوع حملات واقعی مقاوم کند.
یکی از سخنگویان OpenAI از اعلام اینکه بهروزرسانی صورتگرفته در امنیت اطلس تا چه اندازه باعث کاهش قابل سنجش در موفقیت حملات تزریق شده است خودداری کرد؛ اما تأکید کرد که شرکت از پیش از عرضه، با همکاری شرکای بیرونی در جهت مقاومسازی اطلس در برابر تزریق فرمان فعالیت داشته است.
رامی مککارتی، پژوهشگر ارشد امنیت در شرکت امنیت سایبری Wiz، اظهار کرد یادگیری تقویتی یکی از راههایی است که به شکل مستمر میتوان با رفتار مهاجمان سازگار شد؛ اما فقط بخشی از راهحل است.
مککارتی به خبرنگار گفت: «رویکرد مفید برای تحلیل ریسک در سیستمهای هوش مصنوعی، ضرب استقلال در میزان دسترسی است.»
وی توضیح داد: «مرورگرهای عاملمحور معمولاً جایگاه چالشبرانگیزی دارند: استقلال متوسط همراه با دسترسی بسیار بالا. بسیاری از توصیههای فعلی منعکسکننده این مصالحهاند. محدود کردن دسترسی کاربران واردشده در حساب، عمدتاً باعث کاهش میزان نمایش دادهها میشود و تاییدیهگیری قبل از اجرای درخواستها، اختیار عمل را محدود میکند.»
اینها دو مورد از توصیههای OpenAI برای کاربران جهت کاهش ریسک فردی است و طبق گفته سخنگو، اطلس به گونهای آموزش دیده که پیش از ارسال پیام یا انجام پرداخت، تایید کاربر را دریافت کند. همچنین OpenAI توصیه میکند کاربران دستورالعملهای مشخصی به عاملها بدهند و به جای دادن اجازه دسترسی کلی به صندوق ایمیل و جملهای مانند «هر کاری لازم است انجام بده»، دستور دقیق بدهند.
OpenAI تأکید کرده: «اختیار عمل گسترده، حتی در حضور تدابیر ایمنی، کار عامل را برای تأثیرپذیری از محتوای پنهانی یا مخرب تسهیل میکند.»
هرچند OpenAI اعلام کرده محافظت از کاربران اطلس در برابر تزریق فرمان اولویت بالایی دارد، اما مککارتی تردید دارد که مرورگرهای پرخطر ارزش سرمایهگذاری را داشته باشند.
مککارتی به خبرنگار گفت: «برای اغلب سناریوهای استفاده روزمره، مرورگرهای عاملمحور هنوز ارزش عملی کافی نسبت به ریسک فعلیشان ایجاد نمیکنند. به دلیل دسترسی به دادههای حساس مانند ایمیل و اطلاعات پرداخت، ریسک بالاست؛ هرچند همین دسترسی عامل قدرت هم هست. این توازن در آینده تغییر میکند، اما فعلاً این مصالحهها واقعی است.»



